Анализ оттока клиентов банка "Метанпромбанк"

Цель работы:

  1. На основании анализа данных выделить категории клиентов с наибольшим оттоком за исследуемый период

  2. Выявить возможные причины оттока клиентов

  3. Предоставить рекомендации для отдела маркетинга для минимизации оттока клиентов

Ход работы:

  1. Предобработка данных

1.1. Переименование столбцов

1.2. Преобразование типов столбцов

1.3. Проверка на дубликаты

1.3.1. Проверка на неявные дубликаты

1.4. Проверка на пропуски

1.5. Определение типов пропусков

1.6. Обработка пропущенных значений

1.7. Проверка на аномалии

1.8. Кодирование переменных

1.9. Вывод по разделу

  1. Исследовательский анализ данных

2.1. Анализ распределения признаков в разрезе оттока

2.1.1. Распределение клиентов по городам

2.1.3. Распределение клиентов по кредитному рейтингу

2.1.4. Распределение клиентов по половому признаку

2.1.6. Распределение клиентов по возрасту

2.1.7. Распределение клиентов по баллам собственности

2.1.9. Распределение клиентов по балансу

2.1.10. Распределение клиентов по количеству продуктов

2.1.11. Распределение клиентов по наличию кредитной карты

2.1.12. Распределение клиентов по признаку активности

2.1.14. Распределение клиентов по доходу

2.2. Анализ портретов клиентов в разрезе оттока

2.3.Корреляционный анализ

2.3.1. Выявление степени корреляции между оттоком клиентов и другими признаками

2.3.2. Выявление связи между другими признаками

2.4. Вывод по разделу

  1. Проверка гипотез

3.1. Между оставшимися и ушедшими клиентами есть разница в доходе

3.2. Между ушедшими и оставшимися клиентами есть разница в балансе

3.3. Средний баланс ушедших клиентов превышает 750 тыс

3.4. Средний баланс оставшихся клиентов не превышает 750 тыс

3.5. Между ушедшими и оставшимися клиентами есть разница в количестве продуктов

3.6. Есть разница в баллах собственности между ушедшими и оставшимисч клиентами

3.7. Есть разница в кредитном рейтинге между ушедшими и оставшимися клиентами

3.8. Среди ушедших клиентов больше мужчин

3.9. Вывод по разделу

  1. Подведение промежуточных итогов
  1. Сегментация клиентов

5.1. Сегмент 1. Люди предпенсионного возраста с высоким балансом

5.2. Сегмент 2. Молодые активные пользователи со средним кредитным рейтингом

5.3. Сегмент 3. Мужчины с высоким балансом и высоким баллом собственности

5.4. Сегмент 4. Люди с высоким балансом и большим количеством продуктов

5.5. Сегмент 5. Люди с высоким балансом, средним кредитным рейтингом и без кредитной карты

5.6. Вывод по разделу

  1. Приоритезация сегментов
  1. Формирование рекомендаций для отдела маркетинга для минимизации оттока клиентов
  1. Общий вывод

Ссылка на презентацию

https://disk.yandex.ru/i/Iey4L2KWkvm-Hw

Предобработка данных

В таблице 12 столбцов и 10 тысяч строк:

USERID - идентификатор пользователя,

score - баллы кредитного скоринга,

city - город,

gender - пол,

age - возарст,

equity - количество баллов собственности,

balance - баланс на счёте,

products - количество продуктов, которыми пользуется клиент,

credit_card - есть ли кредитная карта,

last_activity - активный клиент,

EST_SALARY - оценочный доход клиента,

churn - признак оттока.

Есть пропуски в столбцах с возрастом (0,26%) и балансом (22,95%).

Явных дубликатов не обнаружено.

Из числового описания таблицы следует, что есть значительные выбросы в данных о балансе, чуть больше половины пользователей активны, седний уровень оттока по банку 18,2%.

Переименование столбцов

Столбцы приведены к нижнему регистру.

Преобразование типов столбцов

Столбцы с баллами кредитного скоринга и возрастом приведены к целочмсленному типу.

Проверка на дубликаты

Столбец с городами содержит 3 уникальных значения, неявных дубликатов не обнаружено.

Столбец с полом содержит 2 уникальных значения, неявных дубликатов не обнаружено, количество женщин и мужчин в выборке примерно равно.

Столбец с баллами собственности принимает значения от 0 до 9.

Столбец с баллами количеством продуктов принимает значения от 0 до 5.

Стоблбец с признаком наличия кредитной карты принимает значение 1, если кредитная карта есть, и значение 0 если кредитной карты нет.

Столбец с признаком активности клиента принимет значения 0 и 1, 0 если клиент неактивный и 1 если активный.

Столбец с признаком оттока принимет значения 0 и 1, 0 если клиент остается в банке и 1 если клиент ушёл.

Проверка на неявные дубликаты

Есть 73 дубликата идентификатора пользователя

Наличие дубликатов не связано с оттоком

Наличие дубликатов не связано с открытием редитной линии

Есть 73 задублированных id, на каждый id приходятся два города Ярославль и Рыбинск, возможно из-за техннической ошибки людям из разных городов присваивался одинаковый id. Предположения что дубли связаны с открытием кредитной линии или уходом клиента не подтвердились.

Например у клиентов с id 116540 сильно различается возраст и доход, разные баллы собственности, у одного клиента есть данные о балансе, а у другого нет, один клиент ушел, а другой нет. У клиентов с id 123461 разный пол, возраст, кредитный рейтинг, доход.

Так как скорее всего под одним id два разных клиента из разнвх городов, присвоим новые id задублированным клиентам из Рыбинска.

Проверка на пропуски

Пропуски присутствуют в столбцах с возрастом (0,26%) и с балансом (22,95%).

Пропусков в возрасте клиентов 26, у этих клиентов в два раза меньше средний балл собственности, в полтора раза выше средний баланс и уровень оттока 3,8%, что очень мало по сравнению с остальными клиентами для которых уровень оттока 18,3%.

Наблюдается очень слабая корреляция отсутствия данных о возрасте с кредитным рейтингом, баллами собственности, активностью и количеством продуктов.

Скорее всего пропуски относятся к категории MAR (Missing At Random / Отсутствует случайно) — в рамках каждой из групп, которая есть в описываемой данными совокупности, распределение пропусков случайно, можно их отбрасывать

Оставим пропуски как есть.

Пропуски в балансе могут быть связаны с какими-то другими показателями, чтобы это проверить сравним числовые описания таблиц с пропусками и без пропусков.

В таблице с пропусками в балансе низкие значения собственности (максимально 3 против 9 в таблице безпропусков), так же при отсутствии баланса уменьшается среднее количество продуктов.

При этом из клиентов с отсутствующим балансом ушедших всего 0,5%, что очень мало по сравнению с теми у кого есть данные о балансе, там ушедших 23%. Так же у клиентов с отсутствующим балансом чаще есть кредитне карты 82% против 64%

Создадим новый признак, принимающий 1, если в наблюдении пропущено значение признака, и 0, если в наблюдении значение признака не пропущено

Нулевые балансы есть, их всего 2, отрицательных нет.

Определение типов пропусков

Больше всего пропуски в балансе связаны с оценкой имущества и во вторую очередь с количеством продуктов, однако это не поможет заполнить пропуски, оставим как есть.

Скорее всего пропуски относятся к категории MNAR (Missing Not At Random / Отсутствует не случайно) — пропуски зависят от данных, без дополнительного обоснования их нельзя отбрасывать или заполнять одним значением, т.к. это приведёт к заметным искажениям.

Обработка пропущенных значений

Было принято решение не обрабатывать пропуски

Проверка на аномалии

Рассмотрим распредление возрастов клиентов

Больше всего клиентов в возрасте 35-50 лет, клиенты старше 75 лет встречаются редко. Минимальный возрат клиента - 18 лет, масиамльный - 86 лет.

Рассмотрим распредление кредитного рейтинга клиентов

У половины клиентов кредитный рейтинг находится в диапазоне 800-900 баллов. Кредитный рейтинг ниже 700 встречается редко. минимальный кредитный рейтинг 642, максимальный - 1000.

Рассмотрим распредление баланса клиентов

По числовому описанию данных видно, что с балансе и доходе ечть выбросы, из-за них представленные выше графики будкт нечитаемы, поэтому применим графики библиотеки plotly.

У половины клиентов баланс находится в ппромежутке от 295 до 980 тысяч. Баланс больше 5 млн есть только у 73 клиентов.

Рассмотрим распредление дохода клиентов

Доход половины пользователей находится в промежутке от 75 до 175 тысяч. Доход выше 500 тысяч есть у 267 клиентов.

Кодирование перменных

Категориальные переменные закодированы

Вывод по разделу

В таблице 12 столбцов и 10 тысяч строк:

USERID - идентификатор пользователя,

score - баллы кредитного скоринга,

city - город,

gender - пол,

age - возарст,

equity - количество баллов собственности,

balance - баланс на счёте,

products - количество продуктов, которыми пользуется клиент,

credit_card - есть ли кредитная карта,

last_activity - активный клиент,

EST_SALARY - оценочный доход клиента,

churn - признак оттока.

Есть пропуски в столбцах с возрастом (0,26%) и балансом (22,95%).

Явных дубликатов не обнаружено.

Из числового описания таблицы следует, что есть значительные выбросы в данных о балансе, чуть больше половины пользователей активны, седний уровень оттока по банку 18,2%.

Столбцы приведены к нижнему регистру.

Столбцы с баллами кредитного скоринга и возрастом приведены к целочмсленному типу.

Столбец с городами содержит 3 уникальных значения, неявных дубликатов не обнаружено.

Столбец с полом содержит 2 уникальных значения, неявных дубликатов не обнаружено, количество женщин и мужчин в выборке примерно равно.

Столбец с баллами собственности принимает значения от 0 до 9.

Столбец с баллами количеством продуктов принимает значения от 0 до 5.

Стоблбец с признаком наличия кредитной карты принимает значение 1, если кредитная карта есть, и значение 0 если кредитной карты нет.

Столбец с признаком активности клиента принимет значения 0 и 1, 0 если клиент неактивный и 1 если активный.

Столбец с признаком оттока принимет значения 0 и 1, 0 если клиент остается в банке и 1 если клиент ушёл.

Есть 73 дубликата идентификатора пользователя.

Наличие дубликатов не связано с оттоком.

Наличие дубликатов не связано с открытием редитной линии.

Есть 73 задублированных id, на каждый id приходятся два города Ярославль и Рыбинск, возможно из-за техннической ошибки людям из разных городов присваивался одинаковый id. Предположения что дубли связаны с открытием кредитной линии или уходом клиента не подтвердились.

Так как скорее всего под одним id два разных клиента из разнвх городов, присвоим новые id задублированным клиентам из Рыбинска.

Пропуски присутствуют в столбцах с возрастом (0,26%) и с балансом (22,95%).

Пропусков в возрасте клиентов 26, у этих клиентов в два раза меньше средний балл собственности, в полтора раза выше средний баланс и уровень оттока 3,8%, что очень мало по сравнению с остальными клиентами для которых уровень оттока 18,3%.

Скорее всего пропуски относятся к категории MNAR (Missing Not At Random / Отсутствует не случайно) — пропуски зависят от данных, без дополнительного обоснования их нельзя отбрасывать или заполнять одним значением, т.к. это может исказить результаты.

В таблице с пропусками в балансе низкие значения собственности (максимально 3 против 9 в таблице безпропусков), так же при отсутствии баланса уменьшается среднее количество продуктов.

При этом из клиентов с отсутствующим балансом ушедших всего 0,5%, что очень мало по сравнению с теми у кого есть данные о балансе, там ушедших 23%. Так же у клиентов с отсутствующим балансом чаще есть кредитне карты 82% против 64%

Нулевые балансы есть, их всего 2, отрицательных нет.

Больше всего пропуски в балансе связаны с оценкой имущества и во вторую очередь с количеством продуктов, однако это не поможет заполнить пропуски, оставим как есть.

Скорее всего пропуски относятся к категории MNAR (Missing Not At Random / Отсутствует не случайно) — пропуски зависят от данных, без дополнительного обоснования их нельзя отбрасывать или заполнять одним значением, т.к. это приведёт к заметным искажениям.

Было принято решение не обрабатывать пропуски

Больше всего клиентов в возрасте 35-50 лет, клиенты старше 75 лет встречаются редко. Минимальный возрат клиента - 18 лет, масиамльный - 86 лет.

У половины клиентов кредитный рейтинг находится в диапазоне 800-900 баллов. Кредитный рейтинг ниже 700 встречается редко. минимальный кредитный рейтинг 642, максимальный - 1000.

У половины клиентов баланс находится в ппромежутке от 295 до 980 тысяч. Баланс больше 5 млн есть только у 73 клиентов.

Доход половины пользователей находится в промежутке от 75 до 175 тысяч. Доход выше 500 тысяч есть у 267 клиентов.

Категориальные переменные закодированы.

Исследовательский анализ данных

Анализ распределения признаков в разрезе оттока

Распределение клиентов по городам

В Рыбинске уровень оттока ниже среднего

Распределение клиентов по категориям кредитного рейтинга

Клиенты с кредитным рейтингом 830- 910 более склонны к уходу

Распределение клиентов по половому признаку

Мужчины уходят из банка в два раза чаще женщин

Распределение клиентов по возрасту

Чаще всего уходят люди в возрасте 25-35 и 50-60 лет

Распределение клиентов по баллам собственности

Чем выше баллы собственности, тем чаще уходят клиенты (более 3)

Распределение клиентов по категории баланса

Чем выше баланс, тем чаще уходят клиенты (от 750 тыс)

Распределение клиентов по количеству продуктов

Реже всего уходят клиенты с одним продуктом, чаще всего с 4

Распределение клиентов по наличию кредитной карты

Клиенты без кредитной карты уходят чаще

Распределение клиентов по признаку активности

Чаще уходят активные клиенты

Распределение клиентов по категории дохода

Чаще уходят пользователи с доходом от 100 до 220 тыс.

Анализ портретов клиентов в разрезе оттока

Самая большая относительная разница между отточными и лояльными клиентами у признака "баланс". У отточных клиентов медианный баланс на 39,24% больше, чем у лояльных(взят медианный из-за выбросов). Медианный доход отточных клиентов на 5,69% больше чем у лояльных(взят медианный из-за выбросов).

Корреляционный анализ

По стандартной корреляции Пирсона наибольшая связь с оттоком клиентов прослеживается у таких признаков как количество продуктов и количество баллов собственности.

Так же прослеживается взаимосвязь количества продуктов с количеством баллов собственности и возраста с полом

При вычислении корреляций при помощи библиотеки phik, наиболее тесно связанными с оттоком оказались так же количество продуктов и количество баллов собственности.

Так же прослеживается взаимосвязь количества продуктов с количеством баллов собственности, наличия кредитной карты с количесвтом продуктов, уровнем дохода и балансом, количеством бвллов собственности крдитным рейтингом.

Вывод по разделу:

В Рыбинске уровень оттока ниже среднего

Клиенты с кредитным рейтингом 830 - 910 более склонны к уходу

Мужчины уходят из банка в два раза чаще женщин

Чаще всего уходят люди в возрасте 25-35 и 50-60 лет

Чем выше баллы собственности, тем чаще уходят клиенты (более 3)

Чаще уходят клиенты с высоким балансом (более 750 тыс)

Реже всего уходят клиенты с одним продуктом, чаще всего с 4

Клиенты без кредитной карты уходят чаще

Чаще уходят активные клиенты

Чаще уходят пользователи с доходом от 100 до 220 тыс.

Самый высокий процент оттока у клиентов имеющих более 3 продуктов (62,47%), далее клиенты с высоким балансом (34,8%) и клиенты с баллами собственности больше 3 (28,45%)

Самый низкий уровень оттока у клиентов имеющих менее 3 продуктов (7,03%), далее клиенты с баллами собственности менее 3 (7,90%) и неактивные клиенты.

По стандартной корреляции Пирсона наибольшая связь с оттоком клиентов прослеживается у таких признаков как количество продуктов и количество баллов собственности.

Так же прослеживается взаимосвязь количества продуктов с количеством баллов собственности.

При вычислении корреляций при помощи библиотеки phik, наиболее тесно связанными с оттоком оказались так же количество продуктов и количество баллов собственности.

Так же прослеживается взаимосвязь количества продуктов с количеством баллов собственности, наличия кредитной карты с количесвтом продуктов, уровнем дохода и балансом, количеством бвллов собственности крдитным рейтингом.

Проверка гипотез

Гипотеза 1. Между оставшимися и ушедшими клиентами есть разница в доходе

Нулевая гипотеза: Средний доход ушедших клиентов равен среднему доходу оставшихся

Альтернативная гипотеза: Средний доход ушедших клиентов не равен среднему доходу оставшихся

В даных о доходе клиентов есть выбросы, для проверки гипотезы необходимо сначала от них избавиться. В разделе 1.7.4 показано, что значения выше 323 тыс являются выбросами.

Данные о доходе для ушедших и оставшихся клиентов независимы друг от друга, выборки достаточно велики, и поэтому в соответствии с ЦПТ на таком распределении можно использовать t-критерий Стьюдента.

Для проверки гипотезы можно использовать ttest, но поскольку выборки будут разного размера необходимо применить параметр equal_var=False

Отвергаем нулевую гипотезу. Между ушедшими и оставшимися клиентами есть разница в доходе

Гипотеза 2. Между оставшимися и ушедшими клиентами есть разница в балансе

Нулевая гипотеза: Средний баланс ушедших клиентов равен среднему балансу оставшихся

Альтернативная гипотеза: Средний баланс ушедших клиентов не равен среднему балансу оставшихся

В даных о балансе клиентов есть выбросы, для проверки гипотезы необходимо сначала от них избавиться. В разделе 1.7.3 показано, что значения выше 2млн являются выбросами, однако чтобы не отбрасывать слишком много пользователей возьмем за границу выбросов 3млн.

Данные о балансе для ушедших и оставшихся клиентов независимы друг от друга, график распределения скошен влево и имеет длинный правосторонний хвост, выборки достаточно велики, и поэтому в соответствии с ЦПТ на таком распределении можно использовать t-критерий Стьюдента.

Для проверки гипотезы можно использовать ttest, но поскольку выборки будут разного размера необходимо применить параметр equal_var=False

Отвергаем нулевую гипотезу. Средний баланс ушедших клиентов не равен среднему балансу оставшихся.

Гипотеза 3. Средний баланс ушедших клиентов превышает 750 тыс.

Нулевая гипотеза: Средний баланс ушедших клиентов не превышает 750 тыс.

Альтернативная гипотеза: Средний баланс ушедших клиентов превышает 750 тыс

Отвергаем нулевую гипотезу. Средний баланс ушедших клиентов превышает 750 тыс

Гипотеза 4. Средний баланс оставшихся клиентов не превышает 750 тыс.

Нулевая гипотеза: Средний баланс оставшихся клиентов превышает 750 тыс.

Альтернативная гипотеза: Средний баланс оставшихся клиентов не превышает 750 тыс

Отвергаем нулевую гипотезу. Средний баланс оставшихся клиентов меньше 750 тыс

Гипотеза 5. Есть разница в количестве продуктов между ушедшими и оставшимися клиентами

Будем проверять бинапный признак - количество продуктов больше 3 или не больше, будем использовать тест пропорций

Нулевая гипотеза: Доли ушедших клиентов с количеством продуктов меньше 3 и количеством продуктов 3 и более равны

Альтернативная гипотеза: Доли ушедших клиентов с количеством продуктов меньше 3 и количеством продуктов 3 и более не равны

Отвергаем нулевую гипотезу. Среднее количество продуктов ушедших и оставшихся пользователей различается

Гипотеза 6. Есть разница в баллах собственности между ушедшими и оставшимисч клиентами

Будем проверять бинапный признак - количество баллов собственности больше 4 или не больше, будем использовать тест пропорций

Нулевая гипотеза: Доли ушедших клиентов с баллом собственности меньше 4 и баллом собственности 4 и более равны

Альтернативная гипотеза: Доли ушедших клиентов с баллом собственности меньше 4 и баллом собственности 4 и более не равны

Отвергаем нулевую гипотезу. Среднее количество баллов собственности ушедших и оставшихся пользователей различается

Гипотеза 7. Есть разница в кредитном рейтинге между ушедшими и оставшимися клиентами

Нулевая гипотеза: Среднеи кредитные рейтинги ушедших и оставшихся пользователей равны

Альтернативная гипотеза: Среднеи кредитные рейтинги ушедших и оставшихся пользователей не равны

Данные о кредитном рейтинге для ушедших и оставшихся клиентов независимы друг от друга, выборки достаточно велики, и поэтому в соответствии с ЦПТ на таком распределении можно использовать t-критерий Стьюдента. есть выбросы слева, граница выбросов 655.

Для проверки гипотезы можно использовать ttest, но поскольку выборки будут разного размера необходимо применить параметр equal_var=False

Отвергаем нулевую гипотезу. Средние кредитные рейтинги ушедших и оставшихся пользователей различаются

Гипотеза 8. Доли ушедших мужчин и женщин различаются

Так как признак пола бинарный, будем использовать тест пропорций

Нулевая гипотеза: Отток для женщин и мужчин одинаковый

Альтернативная гипотеза: Отток для женщин и мужчин различается

Отвергаем нулевую гипотезу. Доли ушедших мужчин и женщин различаются

Вывод по разделу:

Между ушедшими и оставшимися клиентами есть разница в доходе

Средний баланс ушедших клиентов не равен среднему балансу оставшихся

Средний баланс ушедших клиентов превышает 750 тыс

Средний баланс оставшихся клиентов меньше 750 тыс

Среднее количество продуктов ушедших и оставшихся пользователей различается

Среднее количество баллов собственности ушедших и оставшихся пользователей различается

Средние кредитные рейтинги ушедших и оставшихся пользователей различаются

Доли ушедших мужчин и женщин различаются

Подведение промежуточных итогов

Проверка гипотез показала, что на отток клиентов влияют такие факторы как: баланс, доход, количество продуктов, пол, количество баллов собственности и кредитные рейтинги. Исходя из результатов анализа портрета пользователей, сильнее всего на отток влияют количество продуктов, баланс, количество баллов собственности, наличие кредитной карты и признак активности. по эти параметром будет проведена сегментация клиентов.

Сегментация клиентов

Сегмент 1. Люди предпенсионного возраста с высоким балансом

Сегмент 2. Молодые активные пользователи со средним кредитным рейтингом

Сегмент 3. Мужчины с высоким балансом и высоким баллом собственности

Сегмент 4. Люди с высоким балансом и большим количеством продуктов

Сегмент 5. Люди с высоким балансом, средним кредитным рейтингом и без кредитной карты

Вывод по разделу:

Было выделено 5 сегментов пользователей с уровнем оттока более 40%:

"Мужчины с высоким балансом и высоким баллом собственности" : баланс от 750тыс, балл собственноти от 4, активные пользователи

"Клиенты с высоким балансом и большим количеством продуктов": баланс от 750тыс, количество продуктов от 3

"Клиенты с высоким балансом, средним кредитным рейтингом и без кредитной карты": баланс от 750тыс, кредитный рейтинг 830-910, отсутствие кредитной карты

"Молодые активные клиенты со средним кредитным рейтингом": баланс от 750тыс, возраст 25-34, активные пользователи

"Люди предпенсионного возраста с высоким балансом": баланс от 750тыс, возраст 50-60

Приоритизация сегментов

Наиболее приоритетными будем считать сегменты с наибольшим уровнем оттока.

Наиболее приоритетный сегмент "мужчины с высоким балансом и высоким баллом собственности" их уровень оттока самый большой - 62%, к тому же эти клиенты могут принести банку хорошую прибыль. Высоким балансом счтается баланс от 750 тыс., высокий балл собственности - 4 и выше.

На втором месте по приоритетности сегмент "клиенты с высоким балансом и большим количеством продуктов", такие клиенты уходят в 53% случаев, к тому же этот сегмент самый обширный. Большое количество продуктов - 3 и выше

На третьем месте сегмент "клиенты с высоким балансом, средним кредитным рейтингом и без кредитной карты", клиенты из этого сегмента уходят половине случаев. Средний кредитный рейтинг в диапазоне 830-910(включитльно)

На четвёртом месте сегмент "молодые активные клиенты со средним кредитным рейтингом", они уходят в 48% случаев, к тому же поскольку эти пользователи молодые, они смогут приносить прибыль банку на протяжении долгого времени. Молодыми считаюся клиенты в возрасте 25-34 лет(включительно)

На пятом месте сегмент "люди предпенсионного возраста с высоким балансом", процент оттока в этом сегменте составляет 46%. Предпенсионный возраст - 50-59 лет (включительно)

В 4 из 5 сегметах фигурирует высокий баланс, во-первых это связано с большим влиянием этого признака на отток клиентов, во-вторых клиенты с высоким балансом могут принести банку бльше прибыли.

Возможно клиенты с высоким балансом уходят из-за невыгодных условий по вкладам, отсутствия или низкого значения процентов на остаток, низкого уровня сервиса.

Клиенты старше 50 лет могут уходить из банка из-за сложностей с обслуживанием, например если у банка нет отделений и все вопросы приходится решать через приложение или по телефону.

Клиенты со средним кредитным рейтингом могут уходить из банка, потому что не могут получить в нем кредит из-зп высоких требований банка к кредитному рейтингу.

Клиенты с высоким баллом собственности могут уходить из банка из-за отсутствия услуг по страхованию имущества, или невыгодным условиям по нему.

Процент оттока у активных клиентов выше чем у неактивных может наблюдаться из-за того, что неактивные пользователи редко пользуются продуктами банка (например у них есть картв банка, которой они не пользуются или накопительный счет без пополнения и снятия).

Формирование рекомендаций для отдела маркетинга для минимизации оттока клиентов

Для сегмента "мужчины с высоким балансом и высоким баллом собственности" можно предложить услуги по страхованию собственности на лучших условиях.

Для сегмента "клиенты с высоким балансом и большим количеством продуктов" можно ввести приоритетное обслуживание, назначить личных менеджеров, это поможет повысить качество обслуживания

Для сегмнета "клиенты с высоким балансом, средним кредитным рейтингом и без кредитной карты" можно предложить более выгодные условия по кредитам и кредитным картам. Если банк часто отказывает клиентам со средним уровнем кредитного рейтинга в кредитах, возможно стоит пересмотреть политику в отношении таких клиентов.

Для сегмента "молодые активные клиенты со средним кредитным рейтингом" можно предложить выгодные автокредиты, кредиты на образвание и условия по ипотеке, кешбек на популярные у молодежи категории товаров и услуг, ввести новые сервисы (например по подбору отелеей для отдыха, доставки продуктов, обучения, мобильной связи и тд.)

Для сегмента "люди предпенсионного возраста с высоким балансом" можно предложить пенсионные счета, устранить сложности в пользовании приложением.

Общий вывод

В таблице 12 столбцов и 10 тысяч строк:

USERID - идентификатор пользователя,

score - баллы кредитного скоринга,

city - город,

gender - пол,

age - возарст,

equity - количество баллов собственности,

balance - баланс на счёте,

products - количество продуктов, которыми пользуется клиент,

credit_card - есть ли кредитная карта,

last_activity - активный клиент,

EST_SALARY - оценочный доход клиента,

churn - признак оттока.

Есть пропуски в столбцах с возрастом (0,26%) и балансом (22,95%).

Явных дубликатов не обнаружено.

Из числового описания таблицы следует, что есть значительные выбросы в данных о балансе, чуть больше половины пользователей активны, седний уровень оттока по банку 18,2%.

Столбцы приведены к нижнему регистру.

Столбцы с баллами кредитного скоринга и возрастом приведены к целочмсленному типу.

Столбец с городами содержит 3 уникальных значения, неявных дубликатов не обнаружено.

Столбец с полом содержит 2 уникальных значения, неявных дубликатов не обнаружено, количество женщин и мужчин в выборке примерно равно.

Столбец с баллами собственности принимает значения от 0 до 9.

Столбец с баллами количеством продуктов принимает значения от 0 до 5.

Стоблбец с признаком наличия кредитной карты принимает значение 1, если кредитная карта есть, и значение 0 если кредитной карты нет.

Столбец с признаком активности клиента принимет значения 0 и 1, 0 если клиент неактивный и 1 если активный.

Столбец с признаком оттока принимет значения 0 и 1, 0 если клиент остается в банке и 1 если клиент ушёл.

Есть 73 дубликата идентификатора пользователя.

Наличие дубликатов не связано с оттоком.

Наличие дубликатов не связано с открытием редитной линии.

Есть 73 задублированных id, на каждый id приходятся два города Ярославль и Рыбинск, возможно из-за техннической ошибки людям из разных городов присваивался одинаковый id. Предположения что дубли связаны с открытием кредитной линии или уходом клиента не подтвердились.

Так как скорее всего под одним id два разных клиента из разнвх городов, присвоим новые id задублированным клиентам из Рыбинска.

Пропуски присутствуют в столбцах с возрастом (0,26%) и с балансом (22,95%).

Пропусков в возрасте клиентов 26, у этих клиентов в два раза меньше средний балл собственности, в полтора раза выше средний баланс и уровень оттока 3,8%, что очень мало по сравнению с остальными клиентами для которых уровень оттока 18,3%.

Скорее всего пропуски относятся к категории MNAR (Missing Not At Random / Отсутствует не случайно) — пропуски зависят от данных, без дополнительного обоснования их нельзя отбрасывать или заполнять одним значением, т.к. это может исказить результаты.

В таблице с пропусками в балансе низкие значения собственности (максимально 3 против 9 в таблице безпропусков), так же при отсутствии баланса уменьшается среднее количество продуктов.

При этом из клиентов с отсутствующим балансом ушедших всего 0,5%, что очень мало по сравнению с теми у кого есть данные о балансе, там ушедших 23%. Так же у клиентов с отсутствующим балансом чаще есть кредитне карты 82% против 64%

Нулевые балансы есть, их всего 2, отрицательных нет.

Больше всего пропуски в балансе связаны с оценкой имущества и во вторую очередь с количеством продуктов, однако это не поможет заполнить пропуски, оставим как есть.

Скорее всего пропуски относятся к категории MNAR (Missing Not At Random / Отсутствует не случайно) — пропуски зависят от данных, без дополнительного обоснования их нельзя отбрасывать или заполнять одним значением, т.к. это приведёт к заметным искажениям.

Было принято решение не обрабатывать пропуски

Больше всего клиентов в возрасте 35-50 лет, клиенты старше 75 лет встречаются редко. Минимальный возрат клиента - 18 лет, масиамльный - 86 лет.

У половины клиентов кредитный рейтинг находится в диапазоне 800-900 баллов. Кредитный рейтинг ниже 700 встречается редко. минимальный кредитный рейтинг 642, максимальный - 1000.

У половины клиентов баланс находится в ппромежутке от 295 до 980 тысяч. Баланс больше 5 млн есть только у 73 клиентов.

Доход половины пользователей находится в промежутке от 75 до 175 тысяч. Доход выше 500 тысяч есть у 267 клиентов.

Категориальные переменные закодированы.

В Рыбинске уровень оттока ниже среднего

Клиенты с кредитным рейтингом 830 - 910 более склонны к уходу

Мужчины уходят из банка в два раза чаще женщин

Чаще всего уходят люди в возрасте 25-35 и 50-60 лет

Чем выше баллы собственности, тем чаще уходят клиенты (более 3)

Чаще уходят клиенты с высоким балансом (более 750 тыс)

Реже всего уходят клиенты с одним продуктом, чаще всего с 4

Клиенты без кредитной карты уходят чаще

Чаще уходят активные клиенты

Чаще уходят пользователи с доходом от 100 до 220 тыс.

Самый высокий процент оттока у клиентов имеющих более 3 продуктов (62,47%), далее клиенты с высоким балансом (34,8%) и клиенты с баллами собственности больше 3 (28,45%)

Самый низкий уровень оттока у клиентов имеющих менее 3 продуктов (7,03%), далее клиенты с баллами собственности менее 3 (7,90%) и неактивные клиенты.

По стандартной корреляции Пирсона наибольшая связь с оттоком клиентов прослеживается у таких признаков как количество продуктов и количество баллов собственности.

Так же прослеживается взаимосвязь количества продуктов с количеством баллов собственности.

При вычислении корреляций при помощи библиотеки phik, наиболее тесно связанными с оттоком оказались так же количество продуктов и количество баллов собственности.

Так же прослеживается взаимосвязь количества продуктов с количеством баллов собственности, наличия кредитной карты с количесвтом продуктов, уровнем дохода и балансом, количеством бвллов собственности крдитным рейтингом.

Между ушедшими и оставшимися клиентами есть разница в доходе

Средний баланс ушедших клиентов не равен среднему балансу оставшихся

Средний баланс ушедших клиентов превышает 750 тыс

Средний баланс оставшихся клиентов меньше 750 тыс

Среднее количество продуктов ушедших и оставшихся пользователей различается

Среднее количество баллов собственности ушедших и оставшихся пользователей различается

Средние кредитные рейтинги ушедших и оставшихся пользователей различаются

Доли ушедших мужчин и женщин различаются

Проверка гипотез показала, что на отток клиентов влияют такие факторы как: баланс, доход, количество продуктов, пол, количество баллов собственности и кредитные рейтинги. Исходя из результатов анализа портрета пользователей, сильнее всего на отток влияют количество продуктов, баланс, количество баллов собственности, наличие кредитной карты и признак активности. по эти параметром будет проведена сегментация клиентов.

Было выделено 5 сегментов пользователей с уровнем оттока более 40%:

"Мужчины с высоким балансом и высоким баллом собственности" : баланс от 750тыс, балл собственноти от 4, активные пользователи

"Клиенты с высоким балансом и большим количеством продуктов": баланс от 750тыс, количество продуктов от 3

"Клиенты с высоким балансом, средним кредитным рейтингом и без кредитной карты": баланс от 750тыс, кредитный рейтинг 830-910, отсутствие кредитной карты

"Молодые активные клиенты со средним кредитным рейтингом": баланс от 750тыс, возраст 25-34, активные пользователи

"Люди предпенсионного возраста с высоким балансом": баланс от 750тыс, возраст 50-60

Наиболее приоритетный сегмент "мужчины с высоким балансом и высоким баллом собственности" их уровень оттока самый большой - 62%, к тому же эти клиенты могут принести банку хорошую прибыль. Высоким балансом счтается баланс от 750 тыс., высокий балл собственности - 4 и выше.

На втором месте по приоритетности сегмент "клиенты с высоким балансом и большим количеством продуктов", такие клиенты уходят в 53% случаев, к тому же этот сегмент самый обширный. Большое количество продуктов - 3 и выше

На третьем месте сегмент "клиенты с высоким балансом, средним кредитным рейтингом и без кредитной карты", клиенты из этого сегмента уходят половине случаев. Средний кредитный рейтинг в диапазоне 830-910(включитльно)

На четвёртом месте сегмент "молодые активные клиенты со средним кредитным рейтингом", они уходят в 48% случаев, к тому же поскольку эти пользователи молодые, они смогут приносить прибыль банку на протяжении долгого времени. Молодыми считаюся клиенты в возрасте 25-34 лет(включительно)

На пятом месте сегмент "люди предпенсионного возраста с высоким балансом", процент оттока в этом сегменте составляет 46%. Предпенсионный возраст - 50-59 лет (включительно)

В 4 из 5 сегметах фигурирует высокий баланс, во-первых это связано с большим влиянием этого признака на отток клиентов, во-вторых клиенты с высоким балансом могут принести банку бльше прибыли.

Возможно клиенты с высоким балансом уходят из-за невыгодных условий по вкладам, отсутствия или низкого значения процентов на остаток, низкого уровня сервиса.

Клиенты старше 50 лет могут уходить из банка из-за сложностей с обслуживанием, например если у банка нет отделений и все вопросы приходится решать через приложение или по телефону.

Клиенты со средним кредитным рейтингом могут уходить из банка, потому что не могут получить в нем кредит из-зп высоких требований банка к кредитному рейтингу.

Клиенты с высоким баллом собственности могут уходить из банка из-за отсутствия услуг по страхованию имущества, или невыгодным условиям по нему.неактивные

Процент оттока у активных клиентов выше чем у неактивных может наблюдаться из-за того, что неактивные пользователи редко пользуются продуктами банка (например у них есть картв банка, которой они не пользуются или накопительный счет без пополнения и снятия).

Для сегмента "мужчины с высоким балансом и высоким баллом собственности" можно предложить услуги по страхованию собственности на лучших условиях.

Для сегмента "клиенты с высоким балансом и большим количеством продуктов" можно ввести приоритетное обслуживание, назначить личных менеджеров, это поможет повысить качество обслуживания

Для сегмнета "клиенты с высоким балансом, средним кредитным рейтингом и без кредитной карты" можно предложить более выгодные условия по кредитам и кредитным картам. Если банк часто отказывает клиентам со средним уровнем кредитного рейтинга в кредитах, возможно стоит пересмотреть политику в отношении таких клиентов.

Для сегмента "молодые активные клиенты со средним кредитным рейтингом" можно предложить выгодные автокредиты, кредиты на образвание и условия по ипотеке, кешбек на популярные у молодежи категории товаров и услуг, ввести новые сервисы (например по подбору отелеей для отдыха, доставки продуктов, обучения, мобильной связи и тд.)

Для сегмента "люди предпенсионного возраста с высоким балансом" можно предложить пенсионные счета, устранить сложности в пользовании приложением.